Анализ бизнес-показателей

Содержание

Описание проекта

В данном проекте производится анализ маркетинговых показателей развлекательного приложения.

Заказчик исследования: компания, владеющая приложением Procrastinate Pro+.

Основные задачи:

План работы:

Описание данных:

В трёх датасетах предоставлены данные о пользователях, привлечённых с 1 мая по 27 октября 2019 года:

Открытие и изучение данных

Импортируем необходимые библиотеки:

Загружаем файлы:

Для проверки и знакомства с данными будем использовать собственную функцию:

Вывод

На первый взгляд проблем в данных нет (нет ни пропусков, ни явных дубликатов). Единственное, что сейчас заметно из негативного - столбцы с датами и временем записаны в формате object, что не годится для дальнейшей работы.

Предобработка данных

Заменим формат данных, связанных со временем, во всех имеющихся датасетах: формат object заменим на datetime.

Проверяем результат:

Формат изменился. Теперь с датой и временем будет удобно работать.

На всякий случай пройдёмся с проверкой на скрытые дубликаты и аномалии по всем столбцам по порядку. Вспомним, какие у нас есть столбцы:

В столбце 'User Id' не найдено ничего подозрительного. Здесь есть много дубликатов, но это не удивительно - ведь один и тот же пользователь мог совершать несколько сессий. Сами значения идентификаторов распределены довольно равномерно.

В столбце 'Region' тоже всё благополучно (нет ни скрытых дубликатов, ни аномалий).

С данными о типах устройств тоже всё в порядке.

В столбце 'Channel' — идентификатор источника перехода — данные без нареканий (а названия даже под стать нашему приложению Procrastinate Pro+. Вспоминается "скажи, кто твой друг, и я скажу, кто ты").

В столбцах 'Session Start' и 'Session End' хранятся данные о времени и дате начала и конца сессий с 1 мая по 31 октября/1 ноября 2019 года. Аномалий не выявлено.

И последняя проверка основана на предположении, что один и тот же пользователь не мог бы начать больше одной сессии в одно и то же время (это было бы странно). Таких дубликатов нет. С датафреймом visits всё в порядке.

Переходим к проверке следующего датафрейма:

В датафрейме orders тоже не выявлено ничего подозрительного. Переходим к последней проверке:

В последнем датафрейме тоже не было выявлено ничего подозрительного.

И последнее, что можно улучшить: названия столбцов сделать в "змеином" регистре, пробелы заменить на нижние подчёркивания.

Вывод

Функции для расчёта и анализа LTV, ROI, удержания и конверсии

Зададим функции для вычисления значений метрик:

А также зададим функции для визуализации этих метрик:

Вывод

Все необходимые функции для вычисления значений метрик и их визуализации подготовлены для дальнейшей работы.

Исследовательский анализ данных

Составление профилей пользователей. Определение минимальной и максимальной даты привлечения пользователей

Используя функцию get_profiles() из предыдущего раздела, составляем профили пользователей:

Определяем минимальную и максимальную даты привлечения пользователей:

Вывод

Профили пользователей составлены.

Из каких стран пользователи приходят в приложение и на какую страну приходится больше всего платящих пользователей

Названия столбцов оставим на английском, чтобы в дальнейшем было удобно строить графики, не переключая раскладку клавиатуры каждый раз.

Строим графики:

Чтобы удобно было сделать выводы, расположим графики рядом, на одной "подложке":

Вывод

Пользователи приходят в приложение из 4-х стран:

Больше всего платящих пользователей приходит из США (это и самое большое количество - 6902, и самый большой процент - 6.9%).

Интересный момент: разница между США и другими странами

Получается, что по доле платящих пользователей европейские страны не так сильно уступают США (как в общем количестве пользователей и кол-ве платящих пользователей), а Германия и вовсе нарушает "тренд" первых двух графиков и по доле платящих пользователей "обгоняет" Великобританию и Францию.

Какими устройствами пользуются клиенты и какие устройства предпочитают платящие пользователи.

Для исследования этого вопроса так же:

Строим таблицу:

Делаем визуализацию сразу трёх графиков на одной "подложке":

Вывод

Клиенты пользуются следующими устройствами:

Платящие пользователи предпочитают:

Изучение рекламных источников привлечения и определение каналов, из которых пришло больше всего платящих пользователей

Для исследования этого вопроса поступим аналогично:

Вывод

Имеется 11 различных источников пользователей (10 рекламных каналов и "органические пользователи")

Наибольшее число платящих пользователей пришли из следующих каналов:

Наибольшая доля платящих пользователей у следующих каналов:

Интересный момент: "органические пользователи" самые многочисленные, но имеют самую низкую долю платящих пользователей. График с долями платящих клиентов выглядит более равномерным, чем график распределения клиентов по каналам. Также важно, что в последнем графике есть другие "лидеры" помимо FaceBoom и TipTop. Похоже, эти небольшие рекламные каналы перспективны (для точности выводов надо будет узнать цену привлечения клиентов оттуда).

Маркетинг

Общая сумма расходов на маркетинг

Распределение трат по рекламным источникам

Как мы видим, лидерами (с явным отрывом от других источников) являются:

Другие источники получают финансирование на порядок меньше.

Визуализация динамики изменения расходов во времени (по неделям и месяцам) по каждому источнику

Создаём столбцы с неделями и месяцами:

Проверяем результат:

Узнаем, в какие недели начинается отсчёт новых месяцев (это нужно будет для графика ниже):

Попробуем визуализировать динамику изменения расходов по неделям и месяцам на одном графике. Сделаем распределение по неделям, а месяцы отметим вертикальными линиями:

На графике выше не очень равномерно разграничены месяцы, потому что недели иногда приходятся на два месяца сразу. Для более чёткого распределения данных по месяцам сделаем график, состоящий из двух частей (отдельно по неделям и месяцам) на одной "подложке":

Расходы на TipTop и FaceBoom в целом имеют тенденцию к увеличению, это два безусловных лидера на протяжении всего периода анализа. Другие каналы привлечения клиентов имеют небольшое финансирование, которое практически не менялось всё время, оставаясь постоянно на низком уровне.

Сколько в среднем стоило привлечение одного пользователя (CAC) из каждого источника

Используя профили пользователей, составим таблицу:

Визуализируем данные:

Для сравнения рассчитаем средний CAC без разбивки по источникам:

Или ещё проще:

Данные совпадают, значит, расчёты верны. Попробуем добавить эту информацию к имеющемуся графику, чтобы визуализировать, какие каналы в какой степени отличаются от среднего показателя по всему проекту.

Вывод

Общая сумма расходов на маркетинг составляет 105497 долларов.

Распределение трат по рекламным источникам неравномерно:

Больше всего финансирования (с явным отрывом от других) получают два рекламных источника:

В другие каналы привлечения клиентов вкладываются суммы на порядок меньше (примерно в диапазоне от 1 до 5 тыс.долларов).

Динамика изменения расходов во времени показывают две тенденции:

Средняя стоимость привлечения одного пользователя различается от источника к источнику:

Оценка окупаемости рекламы

Поскольку наши данные имеют даты вплоть до конца октября/начала ноября, посмотрим на ситуацию с точки зрения этих последних дат.

Задаём момент анализа:

Задаём горизонт анализа:

Убираем из анализа "органических" пользователей:

На всякий случай перепроверяем:

Из данных исключены 56439 строк, это совпадает с количеством клиентов с каналом привлечения 'organic', значит, всё выполнено корректно.

Анализ окупаемости рекламы c помощью графиков LTV и ROI, а также графиков динамики LTV, CAC и ROI

С помощью подготовленных ранее функций получим необходимые данные (расчёты метрик LTV и ROI):

И построим графики:

На графиках мы видим:

Проверка конверсии и удержания пользователей и динамику их изменения

При помощи подготовленных функций получаем данные о конверсии:

Строим на их основе графики:

Полученные данные о конверсии говорят нам:

Получаем данные об удержании:

Строим графики удержания:

Графики удержания показывают:

Конверсия и удержание выглядят естественно, и не могут раскрыть причины появления проблем. Чтобы исследовать этот вопрос, посмотрим на ситуацию под разными углами (с разбивкой по разным параметрам).

Анализ окупаемости рекламы с разбивкой по устройствам. Графики LTV и ROI, а также графики динамики LTV, CAC и ROI

Задаём условие и получаем нужные данные:

Визуализация:

Проверим конверсию и удержание с разбивкой по устройствам.

Получаем данные о конверсии:

Строим графики конверсии:

Получаем данные об удержании:

Строим графики удержания:

Анализ окупаемости рекламы с разбивкой по странам

Задаём новое условие и получаем данные:

Строим графики:

Получаем данные о конверсии с разбивкой по странам:

Визуализируем:

Получаем данные об удержании:

Делаем визуализацию:

В сумме данные о конверсии и удержании дают нам такой вывод: пользователи из США (напомню, самая многочисленная группа) лучше всех конвертируются в платящих клиентов, но и хуже всех удерживаются. Это заставляет задуматься о том, а нравится ли им продукт или нет ли каких-то проблем с его использованием.

Анализ окупаемости рекламы с разбивкой по рекламным каналам

Задаём условие и получаем данные:

Визуализируем при помощи второй версии функции plot_ltv_roi (подписи легенд не будут "наезжать" на содержимое графика, а сами графики несколько иначе разместим на "подложке"):

Получаем данные о конверсии с разбивкой по каналам:

Строим графики:

Получаем данные об удержании:

Визуализируем:

Изучение взаимосвязи негативных факторов и выявление главной причины неокупаемости рекламы

Попробуем более детально посмотреть на вопрос, какие же факторы оказывают наибольший негативный эффект на окупаемость рекламы. На данный момент мы выделили следующие аспекты:

Выделим проблемные аспекты в отдельные датафреймы и сравним их длину

Как мы видим, самый многочисленный срез у нас в категории пользователей США. Кстати, вспомним, что в разрезе по устройствам и в разрезе по каналам у нас несколько проблемных вариантов, а в разрезе по странам явная проблемная зона одна. Попробуем более детально сравнить, чем отличается ситуация в США и в Европе.

Выделим профили пользователей из США и из Европы в отдельные датасеты:

Перепроверяем:

Судя по всему, выделили нужные данные без проблем, ничего не потеряли.

Получим необходимые данные и визуализируем их, сначала для США, потом для Европы:

Теперь то же самое, но с разбивкой по устройствам, сначала в США, потом в Европе. Гипотеза: если мы увидим, что в разрезе по устройствам выделяются какие-то показатели, значит, есть какая-то взаимосвязь, например, проблема в сочетании двух факторов: пользователь из США + у него айфон, и это сочетание даёт проблему. Если же все линии пойдут "дружно" в одном диапазоне, значит, взаимосвязи нет.

Теперь посмотрим на ситуацию с разбивкой по каналам. Попытаемся увидеть, есть ли взаимосвязь двух факторов "страна + канал рекламы" так же, сначала для США, затем для Европы:

Мы выяснили, что на самом деле категория "страна" зависела от категории "канал", то есть это не у пользователей из США были проблемы, а агрессивная рекламная кампания TipTop и FaceBoom не оправдала надежд. То есть причина - "канал", а "страна" - лишь следствие.

То же самое, получается, было и с категорией "устройство". Видимо, у пользователей из США, на кого была направлена агрессивная рекламная кампания из каналов TipTop и FaceBoom, просто больше айфонов и макбуков, и поэтому эти категории устройств показали "неудачные" показатели окупаемости. Попробуем визуализировать это отличие США и Европы:

Итого: мы выяснили, что из трёх групп проблем (устройство, страна, канал) источником проблем с окупаемостью является канал, а другие категории (устройство, страна) являются лишь следствием.

Можно сделать финальную проверку, выделив отдельно профили, привлечённые с помощью TipTop и FaceBoom, и все остальные профили. Если мы не увидим больше значимых отличий, значит, у нас только одна причина появления проблем с окупаемостью.

Выделяем профили в отдельные датасеты:

Проверяем:

Никакие данные не потерялись.

Получаем нужные данные и строим графики сначала для профилей, привлечённых через TipTop и FaceBoom, а потом для всех остальных:

Вывод

1. Окупается ли реклама, направленная на привлечение пользователей в целом?

- Нет, в целом не окупается. Если в бизнес-плане заложено, что реклама должна окупаться к концу двухнедельного периода "жизни" пользователя (то есть дойти до 100% и выше), то фактически она доходит только до 80%.

- Если смотреть в динамике, то в мае и середине июня вложения в рекламу окупались, но всё остальное время реклама не оправдывают вложенных средств, и с каждым месяцем положение постепенно ухудшается. Чтобы прочувствовать "глубину" падения, обратим внимание на цифры: в начале наблюдений окупаемость инвестиций составляла почти 140%, а в конце опустилась до 60%.

2. Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы?

- устройства: негативное влияние на окупаемость могут оказывать в первую очередь iPhone, Mac, во вторую - Android. Уровень окупаемости привлечения пользователей iPhone и Mac находится отметке ROI 0.7 в конце двухнедельного периода, а пользователей Android на 0.9 (что ниже уровня окупаемости 1.0).

- страны: не окупается привлечение пользователей из США. Окупаемость рекламы в европейских странах происходит примерно на 4-6 день "жизни" пользователя, в то время как реклама для привлечения клиентов из США не окупается и в конце двухнедельного периода. В динамике просматривается тенденция к постепенному медленному росту окупаемости привлечения пользователей из европейских стран и снижению уровня ROI для пользователей из США всё ниже уровня окупаемости.

- каналы: TipTop, FaceBoom, AdNonSense не окупают вложенных средств. Значительная часть каналов преодолевает уровень окупаемости в течение первых 5-6 дней, но три канала не окупают вложенных средств, это: TipTop, FaceBoom, AdNonSense. в основном каналы в течение всех месяцев держатся выше уровня окупаемости, при этом можно отметить постоянное нахождение каналов TipTop и FaceBoom ниже уровня окупаемости

Важно: углублённый анализ показал, что из этих трёх факторов (устройства, страны, каналы) один фактор является причиной неокупаемости, а другие факторы - следствием. Главная причина неокупаемости рекламы - это распределение львиной доли бюджета по рекламным каналам TipTop и FaceBoom, а следствие - это то, что в США низкая окупаемость (именно для США, а не для других стран работают эти каналы привлечения), как следствие и то, что у iPhone и Mac низкая окупаемость (просто у бОльшей части пользователей из США как раз iPhone и Mac).

3. Чем могут быть вызваны проблемы окупаемости? Возможные причины обнаруженных проблем и промежуточные рекомендации для рекламного отдела

В целом проблемы окупаемости могут быть вызваны двумя глобальными направлениями:

  1. качество продукта и его привлекательность для пользователя
  2. эффективность распределения рекламного бюджета

В данном исследовании были обнаружены проблемы с эффективностью распределения средств для рекламы.

Кажется, пришло время пересмотреть подход к распределению средств на рекламу.

Выводы и рекомендации

Общая сумма расходов на маркетинг составляет 105497 долларов.

Распределение трат по рекламным источникам неравномерно:

Больше всего финансирования (с явным отрывом от других) получают два рекламных источника:

В другие каналы привлечения клиентов вкладываются суммы на порядок меньше (примерно в диапазоне от 1 до 5 тыс.долларов).

Динамика изменения расходов во времени показывают две тенденции:

Средняя стоимость привлечения одного пользователя различается от источника к источнику:

1. Окупается ли реклама, направленная на привлечение пользователей в целом?

- Нет, в целом не окупается. Если в бизнес-плане заложено, что реклама должна окупаться к концу двухнедельного периода "жизни" пользователя (то есть дойти до 100% и выше), то фактически она доходит только до 80%.

- Если смотреть в динамике, то в мае и середине июня вложения в рекламу окупались, но всё остальное время реклама не оправдывают вложенных средств, и с каждым месяцем положение постепенно ухудшается. Чтобы прочувствовать "глубину" падения, обратим внимание на цифры: в начале наблюдений окупаемость инвестиций составляла почти 140%, а в конце опустилась до 60%.

2. Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы?

- устройства: негативное влияние на окупаемость могут оказывать в первую очередь iPhone, Mac, во вторую - Android. Уровень окупаемости привлечения пользователей iPhone и Mac находится отметке ROI 0.7 в конце двухнедельного периода, а пользователей Android на 0.9 (что ниже уровня окупаемости 1.0).

- страны: не окупается привлечение пользователей из США. Окупаемость рекламы в европейских странах происходит примерно на 4-6 день "жизни" пользователя, в то время как реклама для привлечения клиентов из США не окупается и в конце двухнедельного периода. В динамике просматривается тенденция к постепенному медленному росту окупаемости привлечения пользователей из европейских стран и снижению уровня ROI для пользователей из США всё ниже уровня окупаемости.

- каналы: TipTop, FaceBoom, AdNonSense не окупают вложенных средств. Значительная часть каналов преодолевает уровень окупаемости в течение первых 5-6 дней, но три канала не окупают вложенных средств, это: TipTop, FaceBoom, AdNonSense. в основном каналы в течение всех месяцев держатся выше уровня окупаемости, приэтом можно отметить постоянное нахождение каналов TipTop и FaceBoom ниже уровня окупаемости

Важно: углублённый анализ показал, что из этих трёх факторов (устройства, страны, каналы) один фактор является причиной неокупаемости, а другие факторы - следствием. Главная причина неокупаемости рекламы - это распределение львиной доли бюджета по рекламным каналам TipTop и FaceBoom, а следствие - это то, что в США низкая окупаемость (именно для США, а не для других стран работают эти каналы привлечения), как следствие и то, что у iPhone и Mac низкая окупаемость (просто у бОльшей части пользователей из США как раз iPhone и Mac).

3. Чем могут быть вызваны проблемы окупаемости?

В целом проблемы окупаемости могут быть вызваны двумя глобальными направлениями:

  1. качество продукта и его привлекательность для пользователя
  2. эффективность распределения рекламного бюджета

В данном исследовании были обнаружены проблемы с эффективностью распределения средств для рекламы.

Рекомендации:

Кажется, пришло время пересмотреть подход к распределению средств на рекламу.

Какие могут быть варианты дальнейших действий:

Итого на стыке этих доводов мы можем выделить:

Можно попробовать более-менее равномерно вложить средства во все каналы, кроме TipTop, FaceBoom, AdNonSense (которые показывают неокупаемость) и далее ещё раз (например через месяц) проанализировать результат, скорректировать дальнейшие действия. Этот вариант кажется предпочтительным, ведь, кажется, проблема не в самих каналах TipTop и FaceBoom, а в том, что в них вкладывали непомерно много средств, а выше какого-то рубежа, они, видимо, уже "захлёбываются" и не эффективны. Вполне возможно, что и у других каналов при излишнем финансировании была бы аналогичная проблема с окупаемостью.

Спасибо за внимание!

Презентация

Презентация: https://disk.yandex.ru/i/HJRJ0ctGWMAs_w